8 research outputs found

    Análisis de contenidos generados por usuarios mediante la integración de información estructurada y no estructurada

    Get PDF
    Los servicios de redes sociales han pasado a ser una parte fundamental del entramado social de los últimos años. Estas herramientas permiten a las personas crear, intercambiar o compartir información, ideas, imágenes y cualquier tipo de medio en comunidades virtuales y redes. El impacto de estos servicios de redes sociales sobre la sociedad ha sido tal, que han introducido cambios sustanciales sobre la comunicación a todos los niveles: individual, comunitaria, organizacional y empresarial. Todo este contenido generado por el usuario tiene un carácter viral del que carecen el resto de medios de comunicación, sirviendo como fuente de conocimiento para nuevas oportunidades de negocio. Es más, la simbiosis que existe entre los dispositivos móviles y estas redes sociales ha provocado que los contenidos generados por los usuarios incorporen nuevos factores como la localización del usuario y el momento exacto de creación y edición del mensaje o contenido en cuestión. Esto abre nuevos mercados potenciales que relacionan a las personas, las redes sociales, el mercado móvil y los eventos en tiempo real. Al abordar este nuevo tipo de contenido, hay que comprender que las redes sociales nos otorgan la oportunidad de combinar dos aspectos fundamentales que los mensajes contienen: información estructurada con la no estructurada en forma, fundamentalmente, de textos cortos. La información estructurada nos proporciona conocimiento adicional que permite analizar el mensaje y al usuario dentro de un contexto específico de carácter social, temporal y/o espacial. Combinar significativamente ambos tipos de información puede resultar fundamental para un tratamiento efectivo de los mensajes. En esta memoria de tesis, se explora la hipótesis consistente en que, al integrar el conocimiento proveniente de dos tipos de información de distinta naturaleza (estructurada y no estructurada) existentes en los mensajes de las redes sociales, se pueden resolver, de forma más efectiva y significativa, ciertas tareas relacionadas con el procesamiento de este tipo de contenidos. Para validar dicha hipótesis, se proponen una serie de tareas a resolver, siempre bajo el paradigma de la integración de ambos tipos de información: la recuperación temática de mensajes en redes de microblogging, clasificación de opinión sobre los mensajes de estas redes y la caracterización de grupos de usuarios dentro de un contexto específico. Cada tarea es tratada de forma individual, proporcionando una formalización para la misma, caracterizando los fenómenos más relevantes, proponiendo uno o varios métodos para abordarla, realizando una evaluación sobre ellos y explorando los resultados de forma consecuente. Las principales aportaciones se resumen en las siguientes propuestas: un método dinámico y adaptativo para generar consultas que son consumibles por un sistema de microblogging como Twitter, un sistema de normalización léxica altamente modular, un esquema de integración para combinar modelos de características provenientes de información estructurada y no estructurada, y una aproximación para la caracterización de grupos de usuarios de las redes dentro de un contexto específico

    Aproximación léxica basada en recursos para la tarea TWEET-NORM

    Get PDF
    This paper proposes a resource-based lexical approach for addressing the TWEET-NORM task. The proposed system exposes a simple but extensible modular architecture in which each analysis module independently proposes correction candidates for each OOV word. Each one of these analysis modules tries to address a specific problem and each one works in a very different way. The resources are used as the main component for the OOV detection system and they works as support for the validation and filtering of candidates.Este artículo propone una aproximación léxica basada en recursos para abordar la tarea TWEET-NORM. El sistema presenta una arquitectura modular sencilla pero extensible en la cual cada módulo de análisis propone candidatos para cada palabra OOV de forma independiente. Cada uno de estos módulos de análisis intenta abordar una problemática específica y cada uno opera de forma muy distinta. Los recursos se usan como base fundamental del sistema de detección de OOVs y como apoyo para la validación y filtrado de candidatos

    Dynamic Topic-Related Tweet Retrieval

    Get PDF
    Twitter is a social network in which people publish publicly accessible brief, instant messages. With its exponential growth and the public nature and transversality of its contents, more researchers are using Twitter as a source of data for multiple purposes. In this context, the ability to retrieve those messages (tweets) related to a certain topic becomes critical. In this work, we define the topic-related tweet retrieval task and propose a dynamic, graph-based method with which to address it. We have applied our method to capture a data set containing tweets related to the participation of the Spanish team in the Euro 2012 soccer competition, measuring the precision and recall against other simple but commonly used approaches. The results demonstrate the effectiveness of our method, which significantly increases coverage of the chosen topic and is able to capture related but unknown à priori subtopics

    Exploring Twitter by Combining Structured and Unstructured Information

    Get PDF
    En este artículo mostramos cómo es posible sacar partido de la información estructurada que proporciona la red social Twitter. Los textos escritos en Twitter son cortos y de baja calidad, lo que dificulta la aplicación de técnicas y herramientas que tradicionalmente se han venido usando para procesar textos en lenguaje natural. Sin embargo, Twitter ofrece mucho más que los 140 caracteres de sus mensajes para trabajar. En el ecosistema Twitter hay muchos objetos (tweets, hashtags, usuarios, palabras, ...) y relaciones entre ellos (co-ocurrencia, menciones, re-tuiteos, ...) que ofrecen innumerables posiblidades de procesado alternativo a las técnicas clásicas de PLN. En este trabajo hemos puesto nuestra atención en la tarea de clasificación de tweets. Sólo usando la información de la relación Follow hemos conseguido un clasificador que iguala los resultados de un clasificador basado en bolsas de palabras. Cuando usamos las features de los dos modelos, el resultado de la clasificación mejora en más de 13 puntos porcentuales con respecto a los modelos originales lo que demuestra que ambos clasificadores aportan informaciones complementarias. También hemos aplicado la misma filosofía a la tarea de recopilación del corpus con el que hemos trabajado, usando una técnica de recuperación dinámica basada en relaciones entre entidades Twitter que nos ha permitido construir una colección de tweets más representativa.In this paper we show how it is possible to extract useful knowledge from Twitter structured information that can improve the results of a NLP task. Tweets are short and low quality and this makes it difficult to apply classical NLP techniques to this kind of texts. However, Twitter offers more than 140 characters in their messages to work with. In Twitter ecosystem there are many objects (tweets, hashtags, users, words, ...) and relationships between them (co-occurrence, mentions, re-tweets, ...) that allow us to experiment with alternative processing techniques. In this paper we have worked with a tweet classification task. If we only use knowledge extracted from the relationship Follow we achieve similar results to those of a classifier based on bags of words. When we combine the knowledge from both sources we improve the results in more than 13 percentual points with respect to the original models. This shows that structured information is not only a good source of knowledge but is also complementary to the content of the messages. We also have applied the same philosophy to the task of collecting the corpus for our classification task. In this case we have use a dynamic retrieval technique based on relationships between Twitter entities that allows us to build a collection of more representative tweets.Este trabajo ha sido financiado a través de los proyectos ATTOS-ACOGEUS (TIN2012-38536-C03-02) y AORESCU (P11-TIC-7684 MO)

    A modular approach for lexical normalization applied to Spanish tweets

    Get PDF
    Twitter is a social media platform with widespread success where millions of people continuously express ideas and opinions about a myriad of topics. It is a huge and interesting source of data but most of these texts are usually written hastily and very abbreviated, rendering them unsuitable for traditional Natural Language Processing (NLP). The two main contributions of this work are: the characterization of the textual error phenomena in Twitter and the proposal of a modular normalization system that improves the textual quality of tweets. Instead of focusing on a single technique, we propose an extensible normalization system that relies on the combination of several independent ‘‘expert modules’’, each one addressing an very specific error phenomenon in its own way, thus increasing module accuracy and lowering the module building costs. Broadly speaking, the system resembles to an ‘‘expert board’’: modules independently propose correction candidates for each Out of Vocabulary (OOV) word, rank the candidates and the best one is selected. In order to evaluate our proposal, we perform several experiments using texts from Twitter written in Spanish about a specific topic. The flexibility of defining resources at different language levels (core language, domain, genre) combined with the modular architecture lead to lower costs and a good performance: requiring a minimal effort for building the resources and achieving more than 82% of accuracy compared to the 31% yielded by the baseline.Ministerio de Economía y Competitividad TIN2012-38536-C03-02Junta de Andalucía P11-TIC-7684 M

    Tweet categorization by combining content and structural knowledge

    Get PDF
    Twitter is a worldwide social media platform where millions of people frequently express ideas and opinions about any topic. This widespread success makes the analysis of tweets an interesting and possibly lucrative task, being those tweets rarely objective and becoming the targeting for large-scale analysis. In this paper, we explore the idea of integrating two fundamental aspects of a tweet, the proper textual content and its underlying structural information, when addressing the tweet categorization task. Thus, not only we analyze textual content of tweets but also analyze the structural information provided by the relationship between tweets and users, and we propose different methods for effectively combining both kinds of feature models extracted from the different knowledge sources. In order to test our approach, we address the specific task of determining the political opinion of Twitter users within their political context, observing that our most refined knowledge integration approach performs remarkably better (about 5 points above) than the textual-based classic modelMinisterio de Economía y Competitividad TIN2012-38536-C03-02Junta de Andalucía P11-TIC-7684 M

    Adaptive query generation for topic-based tweet retrieval

    Get PDF
    Twitter se ha convertido en un recurso con gran potencial a la hora de analizar los estados de opini ́n acerca de temas de actualidad. En el presente trabajo mostramos la metodología utilizada para la obtención de un corpus de mensajes de Twitter relacionados con las elecciones generales españolas del 20 de noviembre de 2011. Dado que el acceso a los mensajes en Twitter se realiza mediante consultas, hemos estudiado diversas estrategias de construcción de dichas consultas, tratando de maximizar la cobertura obtenida. Tras experimentar con diversos acercamientos, se propone un método basado en grafos que permite la captura de tweets relacionados con una temática determinada, adaptando dinámicamente las consultas utilizadas para incorporar automáticamente los temas relacionados que eventualmente vayan surgiendo. El recurso obtenido, de gran utilidad, entre otros, en trabajos de análisis del sentimiento, está públicamente disponible para su utilización.Twitter has become a resource of great potential for analyzing opinion about hot topics. In this paper we show the methodology used for obtaning a corpus of Twitter messages related to the Spanish general elections of November 20, 2011. Given that access to Twitter messages is done through querying, we have studied various strategies for building such queries, trying to maximize the coverage. After experimenting with several approaches, we propose a graph-based method that allows retrieval of tweets related to a specific topic, dynamically adapting the queries to automatically include related topics that eventually arise. The obtained resource, very useful for, among others, sentiment analysis tasks, is publicy available for use

    Known by Who We Follow: A Biclustering Application to Community Detection

    No full text
    The detection of communities in social networks is a task with multiple applications both in research and in sectors such as marketing and politics among others. In this paper, we address the task of detecting on-line communities of Twitter users for a given domain. Our main contribution consists in modelling the community detection problem as a biclustering task.We have performed the experimentation with data from the political domain, a very dynamic area with a large number of interested users and a high availability of tweets. We have evaluated our proposal using both extrinsic and intrinsic methods, reaching very good results in both cases. We use the silhouette coef cient as intrinsic metric for clustering evaluation, and a classi cation task of political leanings of Twitter users as extrinsic evaluation. One of the most interesting conclusions of our experiments is the quality, from the point of view of predictive capacity in the classi cation task, of the communities identi ed with the proposed method. The information provided by communities detected through ``follow'' relationships has a predictive capacity comparable to that of the contents of tweets written by users. The results also show how detected communities can give insights about future events related to these communities that arise around social networks.Ministerio de Economía y Competitividad TIN2017-82113-C2-1-RMinisterio de Ciencia, Innovación y Universidades RTI2018-098062-A-I0
    corecore